Classification non-supervisée de données relationnelles
نویسندگان
چکیده
La classification, ou clustering (Jain et al., 1999), consiste à associer une classe à chaque élément d’un ensemble, les éléments similaires devant être regroupés dans une classe en n’utilisant que la similarité (ou distance) entre deux éléments ou groupes d’éléments. Le formalisme attributs-valeurs ne permettant pas de représenter les domaines complexes, l’apprentissage en logique du premier ordre, ou Programmation Logique Inductive (PLI), a attiré une attention croissante. Le language utilisé en PLI, DATALOG, est un formalisme relationnel ne permettant pas les fonctions, et dont le test de couverture, la θ-subsomption, est une restriction décidable mais NP-difficile de l’implication logique. Cet article présente une méthode permettant l’utilisation d’algorithmes de clustering sur des données relationnelles, en recherchant préliminairement tous les motifs relationnels existant et en les utilisant pour définir une distance entre des clauses en DATALOG.
منابع مشابه
Clustering de données relationnelles pour la structuration de flux télévisuels
Résumé. Les approches existantes pour structurer automatiquement un flux de télévision (i.e. reconstituer un guide de programme exact et complet), sont supervisées. Elles requièrent de grandes quantités de données annotées manuellement, et aussi de définir a priori les types d’émissions (publicités, bandes annonces, programmes, sponsors...). Pour éviter ces deux contraintes, nous proposons une ...
متن کاملCombinaison de classification supervisée, non-supervisée par la théorie des fonctions de croyance
Résumé. Nous proposons dans cet article une nouvelle approche de classification fondée sur la théorie des fonctions de croyance. Cette méthode repose sur la fusion entre la classification supervisée et la classification non supervisée. En effet, nous sommes face à un problème de manque de données d’apprentissage pour des applications dont les résultats de classification supervisée et non superv...
متن کاملUne nouvelle méthode divisive de classification non supervisée pour des données symboliques intervalles
Résumé. Dans cet article nous présentons une nouvelle méthode de classification non supervisée pour des données symboliques intervalles. Il s’agit de l’extension d’une méthode de classification non supervisée classique à des données intervalles. La méthode classique suppose que les points observés sont la réalisation d’un processus de Poisson homogène dans k domaines convexes disjoints de R. La...
متن کاملVisualisation de l'intra et inter structure des groupes en classification non supervisée
Résumé. La croissance exponentielle des données engendre des volumétries de bases de données très importantes. Une solution couramment envisagée est l’utilisation d’une description condensée des propriétés et de la structure des données. De ce fait, il devient crucial de disposer d’outils de visualisation capables de représenter la structure des données, non pas à partir des données elles mêmes...
متن کاملClassification probabiliste non supervisée et visualisation des données séquentielles
Résumé. Nous proposons dans ce papier un nouvel algorithme de classification non supervisée à base de modèle de mélange topologique pour des données non i.i.d (non independently and identically distributed). Ce nouveau paradigme probabiliste, plonge les cartes topologiques probabilistes dans une formulation sous forme de chaînes de Markov cachées. Dans cette formulation, la génération d’une obs...
متن کامل